查看原文
其他

scrapy实战(1)---爬取西刺代理IP

stormdony Python绿洲 2018-08-21

阅读文本需要1.5分钟


之前介绍了scrapy框架,所以下面将使用scrapy来爬取免费代理ip。由于免费代理网站比较多,这里就以西刺代理为例

创建scrapy项目

scrapy startproject get_ip demo


创建spider

scrapy genspider get_ip www.xicidaili.com


通过观察网站,找到需要获取的数据

这里主要使用xpath来定位,以后还会详细的讲解一下xpath的使用方法


编写items.py


编写get_ip.py

通过查看网站,右键,选择复制xpath路径



修改settings.py

添加爬虫设置
1. robotstxt_obey = False 
2. 禁止cookie
3. 添加请求头


运行

为了让输出的数据使用utf-8编码,需要在settings.py最后加一句

FEEDEXPORTENCODING = 'utf-8'


Terminal运行下面的代码,以json格式输出爬取到的数据

scrapy crawl get_ip -o get_ip.json



运行结果


有了这些代理ip,以后就不怕被ban了。

想要源码学习的同学,可以在底下留言哦


如果觉得文章还不错,欢迎打赏

                                            




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存